\documentclass[%
	type=document,%
  	style=article,% book, article
  	media=print,
  	pages=oneside,%
  	prefixLecturer=Dozenten:,
  	author=multiple,
  	%draft,
]{unihildesheim} %19345ad1221aff38b3e458f5c3ae3338f2262ca0
% unihildesheim dokumenttyp verfügbar unter 
% https://github.com/JensBee/LaTeX-classes-UNI-Hildesheim

\usepackage[utf8]{inputenc}
\usepackage[ngerman]{babel}
\usepackage{fancyvrb}
\graphicspath{{../img/}}

% META
\Contact{uni@jens-bertram.net}
\Copyright{cc:by-nc-sa}
\Date{08.07.2012}{08. Juli 2012}
\Lecturer{Gertrud Faaß PhD,\\Dr. Ralph Kölle}
\Seminar{Formalisierung\\[0.5em]{\small Fachbereich III -- Sprach- und
Informationswissenschaften \\Institut für Informationswissenschaft und
Sprachtechnologie}}
\Semester{Sommersemester 2012}
\Title{Hausaufgabe 6}
\Subtitle{Erstellen von Bi- und Trigrammen und
frequenzbasierte Untersuchungen am Beispiel von Zeitungstexten zum Thema
Ministerpräsident}
\Author{J. Bertram, S. Kastner}{Jens Bertram {\small(214508)}\\Sebastian Kastner
{\small(202322)}}
% /META

% shorthands
\newcommand{\codebr}{\textbf{\rotatebox[origin=c]{180}{$\Rsh$}}}

\begin{document}

\Titlepage
\cleardoublepage
\TOC
\cleardoublepage

%\input{titelseite}

\section{Vorverarbeitung der Datei Ministerpräsident.txt}
An dieser Stelle sollen in einer Auflistung die Schritte beschrieben werden,
in denen die Ausgangsdatei, Ministerpräsident.txt, über Linux Tools auf der
Kommandozeile so umgeformt wurde, dass sie als CQP Korpus verarbeitet werden
konnte. Eine detaillierte Erklärung zu den verwendeten Befehlen ist in der
beiliegenden Datei \textit{.info} zu finden.
\begin{enumerate}
  \item \textbf{Erzeugung von Unicode}
  \\Da die Ausgangsdatei in \texttt{LATIN1} encodiert ist
  wurde sie im ersten Schritt in \texttt{UTF8} umgewandelt
  \item \textbf{Entfernen und Kommentieren von Metadaten}
   \\Die ersten 34 Zeilen, in denen sich nur Metadaten befinden und kein
  tatsächlicher Inhalt befinden wurden entfernt. Die Metadaten wurden zuvor
  manuell in die Datei \texttt{.info} übernommen, damit sie später in CQP über
  den Befehle \texttt{info} zur Verfügung stehen. Ferner wurden hier die
  Quellangaben, also auch Metadaten, auskommentiert, indem ein Hashtag
  (\texttt{\#}) vorangestellt wurde
  \item \textbf{Entfernung von Autorenangaben}
  \\ Zeilen mit Autorenangaben, also Zeilen, die mit "Von \{GROßBUCHSTABE\}"
  beginnen, wurden entfernt, da sie ebenfalls Metadaten darstellen und nicht zum
  eigentlichen Inhalt gehören
  \item \textbf{Tagging von Ortsangaben}
  \\ Im Ausgangstext wurden Ortsangaben häufig mit einem \texttt{*} eingeleitet.
  In diesem Schritt wurden wurden die Ortsangaben ausgelesen und anstelle eines
  führenden \texttt{*} mit einem \texttt{p} Tag \texttt{<p
  ort="\{ORTSNAME\}">} ersetzt.
  Somit steht der Ortsname später als Meta Datum für den jeweiligen Absatz zur Verfügung.
  \item \textbf{Entfernung von COSMAS Match-Kennzeichnungen}
  \\ Hier wurden COSMAS Kennzeichnungen im Format
  \texttt{<B>\{Kennzeichnung\}</>} aus der Ausgangsdatei entfernt
  \item \textbf{Erstellung einer Liste der Quellen}
  \\ Die zuvor auskommentierten Quellangaben werden alle ausgelesen, sortiert
  und nummeriert. Das Ergebnis wird in einer separaten Datei gespeichert.
  \item \textbf{Skript: source\_encode.perl}
  \\Dieses Skript nimmt die Ergebnisse aus Schritt sechs über eine Linux-Pipe
  entgegen. Zusätzlich werden die Ergebnisse aus Schritt fünf (Korpus) per
  Kommandozeilenparameter an dieses übergeben. Das Skript nimmt schließlich eine
  Assoziation der Quellen mit der Eingabe des Korpus vor. Als Ergebnis wird ein
  Tag \texttt{<src code="\{QUELLENNUMMER\}>"} erzeugt, der die Eingabe des
  Korpus umgibt.
  \item \textbf{Hinzufügen des schließenden </p> Tags}
  \\ Hier werden zu den zuvor erzeugten \texttt{<p>} Tags mit Ortsangaben noch
  ein schließendes \texttt{</p>} Tag an das Ende des Absatzes hinzugefügt. Somit
  entstehen gekennzeichnete Absätze, die zusätzlich die Ortsangaben des jeweiligen
  Artikels liefern
  \item \textbf{Entfernung und Hinzufügen von src Tags}
  \\ Bedingt durch den vorigen Arbeitsschritt wurde ein schließendes
  \texttt{</src>} Tag am Anfang der Zieldatei erzeugt. Da kein öffnendes
  \texttt{<src>} Tag vorangeht ist dieses Tag überflüssig und wird
  dementsprechend aus der Datei gelöscht.
  Zusätzlich wird ein am Ende der Datei fehlendes schließendes \texttt{</src>}
  Tag eingefügt
  \item \textbf{Tokenisierung und Tagging}
  \\ Das somit erzeugte Format kann anschließend an einen Tokenisierer und einen
  Tree Tagger übergeben werden. Diese beiden Tools erzeugen Output, der von CQP
  verarbeitet werden kann
\end{enumerate}

\section{Analysen des erstellten Korpus \textit{(MPRAES)}}
Vor der Ausführung der hier ausgeführten Befehle wurde mit dem Kommando
\texttt{set PrintMode latex;} das Ausgabeformat auf \LaTeX umgestellt, damit die
Ergebnisse ohne weitere Umformungen weiterverwendet werden konnten.


\subsection{Häufigste Adjektiv-Nomen Paare}
Für die Bestimmung der häufigsten Adjektiv-Nomen Paare, die nicht den
ursprünglichen Suchbegriff \textit{"`Ministerpräsident"'} enthalten, wurden
folgende Befehle verwendet:
\begin{Verbatim}[frame=single,label=CQP,commandchars=\\\{\}]
MPRAES> adj_n = @[pos="ADJ(A|D)"]@[pos="N(E|N)" & \codebr
        lemma!="Ministerpräsident.?"];
MPRAES> group adj_n matchend lemma by match lemma cut 4 \codebr
        > "tabelle1.tex";
\end{Verbatim}

Mit dem ersten Befehl werden alle Adjektiv-Nomen Paare aus dem Korpus ausgelesen
und in der Variable \texttt{adj\_n} gespeichert. Im Folgenden soll der
ausgeführte Befehl kurz erläutert werden:
\begin{enumerate}
  \item \texttt{@[pos=\dq ADJ(A|D)"]} \\
			Das erste Wort muss mit dem POS Tag \texttt{ADJA} oder \texttt{ADJD} getaggt
			sein
  \item \texttt{@[pos="N(E|N)" \& lemma!="Ministerpräsident.?"]]} \\
			Das darauf folgende Wort muss mit dem POS Tag \texttt{NE} oder \texttt{NN}
			getaggt sein. Das Lemma des Nomens darf dabei nicht gleich
			\textit{"`Ministerpräsident"'} sein. Da sich bei der Erstellung des Korpus bei dem
			Transport über verschiedene Systeme hinweg an das Ende der Lemmata mit
			\textit{\textasciicircum M} ein DOS Zeilenumbruch eingeschlichen. Mit
			\texttt{.?} am Ende von Ministerpräsident wird das Lemma trotz dieses DOS
			Zeilenumbruchs gematched, aber Abwandlungen von \textit{"`Ministerpräsident"'}, wie zum
			Beispiel \textit{"`Ministerpräsidentenkonferenz"'} nicht. Der unerwünschte
			Zeilenumbruch bei den Lemmata wurde zu spät erkannt, als dass es noch
			möglich gewesen wäre ihn zu entfernen. Die Lemma Abfragen im weiteren wurden
			ebenfalls mit diesem \textit{Quickfix} getätigt.
\end{enumerate}

Mit dem zweiten Befehl wurden die Ergebnisse des ersten Befehls nach der
Lemmakombination des ersten (also des Adjektivs) und des zweiten gematchten
Wortes (also das Nomen) gruppiert und nach der Häufigkeit der jeweiligen
Kombination absteigend angeordnet. Da nur die Ausgabe der zehn häufigsten
Kombinationen gefordert war, wurde die Anzahl der ausgegeben Kombinationen
mit \texttt{cut} beschränkt. Durch \texttt{cut 4} wurde die Ausgabe auf
Kombinationen beschränkt, die mindestens vier mal auftreten. Der Wert vier wurde zuvor manuell
bestimmt, indem der obige Befehl ohne den \texttt{cut} Befehl verwendet wurde.
Die Ausgabe wurde in die Datei \texttt{tabelle1.tex} umgeleitet.

Das Ergebnis ist der \reftab{tab:adjektive_nomina} zu entnehmen.

% tabelle 1: adjektive+nomen top10
\begin{table}[htpb]\label{t}
	\center
	\begin{tabularx}{0.6\textwidth}{llr}
		\toprule
		\textbf{Adjektiv} & \textbf{Nomen} & \textbf{Quantität}\\
		\midrule
		% tabelle muss auf nur-Zeilen gekürzt werden!
		\input{data/tabelle1.tex.inc}
		\bottomrule
	\end{tabularx}
	\caption{Kollokation Adjektive + Nomen, die häufigsten zehn Kombinationen im
	\texttt{MPRAES}-Korpus.}
	\label{tab:adjektive_nomina}
\end{table}

\subsection{Häufigste Nomina}
Für die Bestimmung der häufigsten Nomina, die nicht gleich Ministerpräsident
sind, wurden folgende Befehle verwendet:
\begin{Verbatim}[frame=single,label=CQP,commandchars=\\\{\}]
MPRAES> n = @[pos="N(E|N)" & lemma!="Ministerpräsident.?"];
MPRAES> group n target lemma cut 35 > "tabelle2.tex";
\end{Verbatim}

Mit dem ersten Befehl werden alle Nomina (POS gleich \texttt{NN} oder
\texttt{NE}), die nicht gleich \textit{"`Ministerpräsident"'}, beziehungsweise eine
Deklination von Ministerpräsident sind, abgefragt und in der Variable \texttt{n}
gespeichert. Mit dem zweiten Befehl wurden die so abgefragten Nomen nach ihrem Lemma gruppiert und
nach ihrer Häufigkeit sortiert. Mit \texttt{cut 35} wurde die Ausgabe auf Nomen
beschränkt, die mindestens 35 mal auftreten. Somit wurde die Ausgabe auf die
häufigsten zehn Nomen beschränkt, wie gefordert. Der Wert von 35 wurde wie im
vorigen Beispiel manuell durch einen unbeschränkten Aufruf des selben
Befehls ermittelt. Die Ausgabe wurde in die Datei \texttt{tabelle2.tex}
umgeleitet.

Das Ergebnis ist der \reftab{tab:nomina} zu entnehmen.
% tabelle 2: nomina top10
\begin{table}[!hpb]\label{t}
	\center
	\begin{tabularx}{0.35\textwidth}{lr}
		\toprule
		\textbf{Nomen} & \textbf{Quantität}\\
		\midrule
		% tabelle muss auf nur-Zeilen gekürzt werden!
		\input{data/tabelle2.tex.inc}
		\bottomrule
	\end{tabularx}
	\caption{Die zehn häufigsten Nomina im \texttt{MPRAES}-Korpus.}
	\label{tab:nomina}
\end{table}

\subsection{Adjektiv in Kollokation mit "`Ministerpräsident"'}
Für die Bestimmung der häufigsten Nomina, die nicht gleich
\textit{"`Ministerpräsident"'} sind, wurden folgende Befehle verwendet:
\begin{Verbatim}[frame=single,label=CQP,commandchars=\\\{\}]
MPRAES> adj = @[pos="ADJ(A|D)"]@[lemma="Ministerpräsident.?"];
MPRAES> group adj match lemma cut 2 > "tabelle3.tex";
\end{Verbatim}
% tabelle 3: nomina top10
Mit dem ersten Befehl werden alle Adjektive (POS gleich \texttt{ADJA} oder
\texttt{ADJD}) ausgelesen, die von \textit{"`Ministerpräsident"'} oder einer
Deklination des Wortes gefolgt werden. Mit dem zweiten Befehl werden die
Ergebnisse nach dem Lemma des Adjektivs gruppiert. Mit \texttt{cut 2} wird die Ausgabe auf Adjektive begrenzt,
die mindestens zweimal zusammen mit Ministerpräsident auftreten. Der Wert zwei
wurde wie in den vorigen Beispielen manuell ermittelt. Auch hier wurde die Ausgabe
wieder in eine Datei, diesmal \texttt{tabelle3.tex}, umgeleitet. 

Das Ergebnis ist der \reftab{tab:adj_mpraes} zu entnehmen.
\begin{table}[!hpb]\label{t}
	\center
	\begin{tabularx}{0.5\textwidth}{lr}
		\toprule
		\textbf{Adjektiv} & \textbf{Quantität}\\
		\midrule
		% tabelle muss auf nur-Zeilen gekürzt werden!
		\input{data/tabelle3.tex.inc}
		\bottomrule
	\end{tabularx}
	\caption{Die zehn häufigsten Adjektive, die in Kollokation mit dem Suchwort
	\textit{"`Ministerpräsident"'} im \texttt{MPRAES}-Korpus auftreten).}
	\label{tab:adj_mpraes}
\end{table}

\section{Vergleich mit dem allgemeinen Zeitungskorpus (HGC)}
\subsection{Die häufigsten zehn Adjektiv+Nomina Kollokationen im Vergleich zum
MPRAES Korpus}
\label{sec:comparison}
Die Bestimmung der häufigsten Adjektiv+Nomina Kollokationen, wurde das folgende
Muster für die benötigten Befehle verwendet:
\begin{Verbatim}[frame=single,label=CQP,commandchars=\\\{\}]
MPRAES> adj_n = @[lemma="$ADJEKTIV"]@[lemma="$NOMEN"];
MPRAES> group adj_n matchend lemma;
\end{Verbatim}
Hierbei wurden die Variablen \texttt{\$ADJEKTIV} und \texttt{\$NOMEN}
entsprechend \reftab{tab:adjektive_nomina} besetzt. Das Ergebnis der Abfrage ist
Tabelle \ref{tab:compare_adj_n} zu entnehmen.
\begin{table}[!hpb]\label{t}
	\center
	\begin{tabularx}{\textwidth}{llrrrr}
		\toprule
		\multicolumn{2}{c}{\textbf{Kollokation}} & \multicolumn{2}{c}{\textbf{abs.
		Häufigkeit}} & \multicolumn{2}{c}{\textbf{rel. Häufigkeit}} \\
		\midrule
		\textbf{Adjektiv} & \textbf{Nomen} & \textbf{HGC} & \textbf{MPRAES}
		&	\textbf{HGC} & \textbf{MPRAES} \\
		\midrule
		vergangen & Woche & 10.936 & 14 & 0,0053\% & 0,0444\%\\
		vergangen & Jahr & 30.165 & 8 & 0,0147\% & 0,0253\%\\
		öffentlich-rechtlich & Rundfunk & 346 & 7 & 0,0002\% & 0,0222\%\\
		norddeutsch & Landesbank & 8 & 6 & 0,0000\% & 0,0190\%\\
		grün & Gentechnik & 1 & 5 & 0,0000\% & 0,0158\%\\
		rein & Spekulation & 149 & 5 & 0,0001\% & 0,0158\%\\
		liberaldemokratisch & Partei & 36 & 4 & 0,0000\% & 0,0127\%\\
		klug & Entscheidung & 33 & 4 & 0,0000\% & 0,0127\%\\
		offen & Denkmal & 22 & 4 & 0,0000\% & 0,0127\%\\
		früh & Außenminister & 149 & 4 & 0,0001\% & 0,0127\%\\
		\bottomrule
	\end{tabularx}
	\caption{Vergleich der Adjektiv für Adjektiv+Nomina Kollokationen (auf
	Lemma-Basis) der Korpora \texttt{HGC} (204.813.118 Token) und \texttt{MPRAES} (28.176 Token)
	 (Prozentangaben gerundet).}
	\label{tab:compare_adj_n}
\end{table}

Für alle der untersuchten Kollokationen ist die relative Häufigkeit im
kleineren MPRAES Korpus deutlich höher. Da das MPRAES Korpus über die Suche nach
dem Ausdruck \verb Ministerpräsident  in einem größeren Korpus erstellt wurde,
handelt es sich dabei um ein Korpus, das sich mit einem Spezialgebiet befasst. Das
Korpus ist damit also nicht als repräsentativ für die Gattung von
Zeitungsberichten allgemein zu betrachten.

Weiter wurde die absolute und relative Häufigkeit des Lemmas Ministerpräsident
analysiert. Das Ergebnis befindet sich in Tabelle \ref{tab:corp_frequency}.
\begin{table}[!hpb]\label{t}
	\center
	\begin{tabularx}{0.8\textwidth}{lcccc}
		\toprule
		& \multicolumn{2}{c}{\textbf{abs. Häufigkeit}} &
		\multicolumn{2}{c}{\textbf{rel. Häufigkeit}} \\
		\midrule
		\textbf{Suchwort} & \textbf{HGC} & \textbf{MPRAES} & \textbf{HGC}
		&	\textbf{MPRAES} \\
		\midrule
		Ministerpräsident & 28.176 & 252 & 0,138\% & 0,7985\% \\
		\bottomrule
	\end{tabularx}
	\caption{Absolute und relative Häufigkeit des Suchworts \textit{"`Ministerpräsident"'} in
	den Korpora \texttt{HGC} (204.813.118 Token) und \texttt{MPRAES} (28.176 Token).}
	\label{tab:corp_frequency}
\end{table}

Wie zu erwarten ist die relative Häufigkeit im MPRAES Korpus um ein vielfaches
höher als im HGC Korpus. 

\section{Interpretation der Ergebnisse}
Auch wenn die Ergebnisse aus Kapitel \ref{sec:comparison} darauf hindeuten, dass
es sich beim MPRAES um ein Spezialkorpus handelt, das sich von einem Korpus mit
allgemeinen Zeitungsberichten unterscheidet, kann allgemein nicht davon
ausgegangen werden, dass es sich dabei um ein umfassendes Korpus zum Thema
Ministerpräsident handelt. Um eine erschöpfender und somit auch repräsentativere
Behandlung des Themas Ministerpräsident zu gewährleisten könnte die Suche, mit
der die Inhalte für das MPRAES Korpus erstellt wurde noch um Synonyme von
Ministerpräsident erweitert werden. Der Duden bietet als Synonyme für
Ministerpräsident folgenden Begriffe: Kabinettschef, Kabinettschefin,
Regierungschef, Regierungschefin, Landesvater, Landesmutter
\footnote{\url{http://www.duden.de/rechtschreibung/Ministerpraesident}}.

Anstelle der verwendeten Abfrage \texttt{Ministerpräsident*} könnte also eine
erweiterte, über boolsche Operatoren kombinierte Anfrage erstellt werden:

\begin{Verbatim}[frame=single,commandchars=\\\{\}]
Ministerpräsident* OR Kabinettschef* OR Regierungschef* \codebr 
OR Landesvater* OR Landesmutter*
\end{Verbatim}

\end{document}
